Cuadro de mandos
Enlace al repositorio en GitHub

1 Introducción

1.1 Estado actual

1.2 Motivación

1.3 Objetivos

2 Aportaciones del trabajo

2.1 Principales aportaciones

2.2 Alineamiento con los objetivos de desarrollo sostenible

Grado de relación del proyecto con los objetivos de desarrollo sostenible (ODS)
ODS No procede Bajo Medio Alto
1 Fin de la Pobreza X
2 Hambre cero X
3 Salud y Bienestar X
4 Educación de calidad X
5 Igualdad de género X
6 Agua limpia y saneamiento X
7 Energía Asequible y no contaminante X
8 Trabajo decente y crecimiento económico X
9 Industria, Innovación e Infraestructuras X
10 Reducción de las desigualdades X
11 Ciudades y comunidades sostenibles X
12 Producción y consumo sostenibles X
13 Acción por el clima X
14 Vida submarina X
15 Vida de ecosistemas terrestres X
16 Paz, justicia e instituciones sólidas X
17 Alianzas para lograr objetivos X

3 Desarrollo

3.1 Herramientas empleadas

3.2 Metodología

Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:

Diagrama metodología de desarrollo CRISP-DM

Comprensión del negocio. Se plantean los objetivos del proyecto y la búsqueda de información y datos.

Para la búsqueda del dataset elegido finalmente para la realización de este proyecto, hemos llevado a cabo una serie de pasos.
En primer lugar, a través del documento facilitado por el profesor, exploré y contrasté los posibles datasets que aparecían en la tabla dinámica que ofrecía aquellos datasets que cumplían los requisitos relacionados con la temporalidad de las observaciones. Tras consultar con chatgpt, centré mi busqueda en aquellos datasets que tenían un máximo de ≈1 mill. y mínimo 10 mil observaciones. Aquellos datasets que tenían un título que me llamara la atención, se los pasaba al chatgpt para que me diera una breve descripción del mismo. Cuando ya había seleccionado los suficientes, le pedí que hiciera un top con aquellos que considerara más adecuados para el proyecto a realizar, según el temario que se impartiría en la asignatura y que está registrado en el libro de la asignatura que previamente le pasé a este chatbot.
Tras haber escrito un dataset previamente en la wiki para registrarlo, sin haber prestado mucha atención a todo las condiciones que este debía cumplir, terminé eligiendo uno que cumplía todos los requisitos expuestos en el documento proporcionado por el profesor. Una vez verificado esto, pasé al siguiente paso de comprensión de los datos elegidos.

Comprensión de los datos. Se analiza la estructura y organización de los datos obtenidos. Se identifican posible problemas como datos faltantes, outliers o inconsistencias.

  • code: nama_10r_2lp10
  • title: Compensation per employee and hours worked per employed person by NUTS 2 region and by industry
  • last.update.of.data: 28.04.2025
  • last.table.structure.change: 28.04.2025
  • data.start: 1995
  • data.end: 2023
  • values: 432.832

Los datos de nuestro dataset están organizados de forma tidy. Los variables categóricas que existen, su significado, y sus valores posibles son:

  • freq: Frecuencia con la que se toman las observaciones. Tiene un único valor “A”, que corresponde a datos anuales.

  • nace_r2: Rama de actividad económica. Se divide según la clasificación NACE Rev. 2. Los códigos pueden corresponder a una sección concreta (ej. A, C, F), a un rango de secciones consecutivas indicado con guion (ej. B-E, G-I), o a agrupaciones específicas de varias secciones señaladas con guion bajo (ej. M_N).
    Valores posibles:

    • TOTAL: Total - todas las actividades NACE
    • O-U: Administración pública y defensa; actividades de computación obligatoria; educación; salud humana y servicios sociales; artes, entretenimiento y otros servicios
    • O-Q: Administración pública, defensa, educación, actividades sanitarias y de servicios sociales
    • B-E: Industria (excepto construcción)
    • K-N: Actividades financieras y de seguros; inmobiliarias; profesionales, científicas y técnicas; servicios administrativos
    • F: Construcción
    • M_N: Actividades profesionales, científicas y técnicas; actividades administrativas y servicios auxiliares
    • A: Agricultura, silvicultura y pesca
    • C: Industria manufacturera
    • G-J: Comercio mayorista y minorista; transporte; alojamiento; información y comunicación
    • R-U: Artes, entretenimiento y recreación; otros servicios
    • G-I: Comercio mayorista y minorista; transporte; alojamiento y servicios de comida
    • J: Información y comunicaciones
    • K: Actividades financieras y de seguros
    • L: Actividades inmobiliarias

  • na_item: Tipo de indicador económico relacionado con los costes laborales y las horas trabajadas.

    • D1_SAL_HW: Coste laboral por hora trabajada, que incluye sueldos, salarios y cotizaciones sociales pagadas por el empleador (euros por hora).
    • D1_SAL_PER: Coste laboral medio por persona empleada, considerando tanto la remuneración directa como las contribuciones sociales a cargo de la empresa (euros por empleado).
    • HW_EMP: Horas efectivamente trabajadas por persona empleada en promedio, es decir, el total de horas dedicadas al trabajo dividido entre el número de empleados (horas por empleado).

  • unit: Unidad de medida de los valores registrados para cada indicador.

    • EUR: Euro
    • NAC: Moneda nacional
    • PC_EU27_2020_MEUR_CP: Porcentaje del total de la UE27 (desde 2020) en precios corrientes
    • HW: Horas trabajadas
    • PCH_PRE: Variación porcentual respecto al periodo anterior

  • geo: Regiones para las que existen observaciones.

    • NUTS 0: 29 países
    • NUTS 1: 95 regiones
    • NUTS 2: 249 comunidades
    • EU27_2020: promedio de la Unión Europea compuesto por los 27 países miembros vigentes desde el año 2020
    • OTHERS: 20 códigos que no corresponden a regiones reales

  • TIME_PERIOD: Fechas de las observaciones. Comprende datos desde 1995 hasta 2023, con observaciones anuales. La cantidad de registros por año varía, siendo especialmente elevada entre 2000 y 2021, destacando los años 2016 y 2020 como los que concentran más observaciones. Cabe destacar que en 2023 el número de registros disminuye significativamente respecto a años anteriores.

Preparación de los datos. Se realiza limpieza, transformación, combinación y selección/creación de variables relevantes para el análisis

Modelado. Selección y aplicación de los modelos adecuados para analizar los datos

Evaluación. Evaluar si el modelo responde a las preguntas de investigación, comparación con otros métodos

Despliegue. Comunicación del trabajo en una memoria y diseño y elaboración de un cuadro de mandos para presentar los resultados de forma eficaz y atractiva.

Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.

A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.

3.3 Comprensión del negocio

3.4 Comprensión de los datos

3.5 Preparación de los datos

3.6 Modelado

3.7 Evaluación

3.8 Despliegue

4 Conclusiones y trabajo futuro

4.1 Conclusiones

4.2 Trabajo futuro

Anexo. Seguimiento temporal actividades del proyecto

TOTAL HORAS TRABAJADAS EN EL PROYECTO : -1.1025919^{6}

DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO